Probabilités et statistiques : La science de l'incertitude : De la probabilité à la vraisemblance : La science de l'inférence

L'inférence statistique marque le passage de la prédiction des résultats à partir de paramètres connus (probabilité) à la détermination des paramètres les plus cohérents avec les données observées (vraisemblance). Alors qu'une fonction de densité de probabilité $f(x|\theta)$ décrit la distribution des données $x$ pour un $\theta$ fixe, la fonction de vraisemblance $L(\theta|x)$ traite les données observées comme fixes et fait varier le paramètre $\theta$ afin de quantifier le soutien relatif accordé à différentes hypothèses.

Le principe d'inversion

La fonction de vraisemblance est souvent exprimée sous la forme de la densité conjointe. Pour une loi normale à variance fixe, la vraisemblance est définie par :

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

Ici, nous évaluons la « plausibilité » de différentes valeurs de $\theta$ étant donné la moyenne d'échantillon $\bar{x}$. Pour trouver le sommet de cette plausibilité, nous utilisons Définition 6.2.2: la log-vraisemblance $l(\theta | s) = \ln L(\theta | s)$. Cette transformation transforme les produits d'observations indépendantes en sommes, rendant la maximisation des modèles complexes calculable.

Exemple travaillé : Enquête sur les tailles (EXEMPLE 6.3.5)

Les données

Considérons un échantillon de $n=30$ tailles avec un écart-type calculé de $s=2.379$. En utilisant le modèle normal à localisation-échelle, nous cherchons à inférer la moyenne réelle $\theta$.

Inférence et précision

L'erreur type est calculée comme $s/\sqrt{30} = 0.43434$. Cette valeur mesure la « netteté » de notre pic de vraisemblance. Une erreur type plus petite implique un pic plus étroit et plus aigu, représentant une précision plus élevée dans notre inférence concernant $\theta$.

Dimensionnalité et contraintes

Dans des scénarios complexes comme EXEMPLE 6.1.5 (Modèles multinomiaux), nous devons tenir compte des dépendances logiques. Comme indiqué : « Remarquez qu’il est vraiment seulement bidimensionnel, car dès que nous connaissons la valeur de deux quelconques des $\theta_i$… nous connaissons immédiatement la valeur du paramètre restant. » Cette contrainte est essentielle pour définir correctement l’espace des paramètres $\Omega$.

Fondements asymptotiques

Le pont entre la vraisemblance et l'inférence repose sur le théorème central limite. Lorsque $n \to \infty$, la distribution de nos estimateurs converge. Plus précisément, dans le EXEMPLE 6.5.4 modèle de Bernoulli:

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

Cela nous permet de quantifier l'incertitude à l'aide d'intervalles-z et de valeurs-p, à condition que nous disposions d'échantillons suffisamment grands.

🎯 Principe fondamental

Les méthodes d'inférence statistique non paramétriques nécessitent uniquement des hypothèses minimales sur la distribution d'échantillonnage, ce qui les rend robustes lorsque la famille $\{P_{\theta} : \theta \in \Omega\}$ est très grande. En revanche, les méthodes paramétriques de vraisemblance reposent sur la courbure de la log-vraisemblance, où l'information de Fisher $nI(\theta)$ détermine la variance de notre fonction de score.

QUESTION 1

6.1.2 : Supposons que les suicides surviennent à un taux $p$ par personne-an (Poisson(Np)). Si nous observons 22 suicides sur $N=30\,345$ années-personne, quelle est la fonction de log-vraisemblance $l(p)$ ?

$l(p) = -30345p + 22\ln(p) + C$

$l(p) = 30345\ln(p) - 22p + C$

$l(p) = e^{-30345p} p^{22}$

$l(p) = -22p + 30345\ln(p)$

QUESTION 2

6.3.14 : Un intervalle de confiance à 95 % pour $\psi(\theta)$ est $(1.23, 2.45)$. Y a-t-il des preuves contre $H_0 : \psi(\theta) = 2$ ?

Non, car 2 est à l'intérieur de l'intervalle.

Oui, car 2 n'est pas le centre de l'intervalle.

Oui, au niveau $\alpha=0.01$.

Informations insuffisantes pour conclure.

QUESTION 3

Vérifiez le troisième moment de $N(\mu, \sigma^2)$. Quelle expression représente $\mu_3 = E_{\theta}(X^3)$ ?

$\mu^3 + 3\mu\sigma^2$

$\mu^3 + \sigma^3$

$3\mu^2\sigma + \mu^3$

$\mu^3 + 3\sigma^2$

QUESTION 4

6.5.1 : Si $x_1, \dots, x_n \sim N(\mu_0, \sigma^2)$ avec $\mu_0$ connu, quelle est l'information de Fisher $I(\sigma^2)$ ?

$1 / (2\sigma^4)$

$1 / \sigma^2$

$n / (2\sigma^2)$

$2\sigma^4$

QUESTION 5

Dans un modèle multinomial à k catégories (EXEMPLE 6.1.5), quelle est la dimensionnalité effective de l'espace des paramètres ?

$k - 1$

$k$

$k^2$

$1$